NUAGE DE MOTS

Les nuages de mots permettent de visualiser le résultat de mon script. Pour les textes en anglais et en français, j'ai utilisé le programme WordArt pour générer des nuages de mots. Pour le texte en chinois, un autre programme Weiciyun, spécialement conçu pour la génération des nuages en chinois, a été utilisé.

J'ai employé Wordart qui prend en entrée un texte et produit une illustration des mots. J'ai donc copier-collé le corpus de dump (contenu du site web) et le corpus de contexte (l'entourage de motif) de chaque langue comme les données d'entrée. Pour le texte en français, le stoplist n'a pas été pris en compte par Wordart, j'ai donc supprimé à la main tous les mots grammaticaux (pronoms, articles, des verbes avec un sens flou comme "faire, fait"). Concernant le corpus chinois, la segmentation a été réalisée par mon script, le site a enlevé automatiquement tous les adverbes, chiffres, adjectifs, etc. La taille de mots illustre la fréquence des mots. Cette visualisation me permet de d’identifier au premier coup d'œil les mots les plus mentionnés dans le texte. Voici les illustrations générées:

1.1 Anglais - Contexte

1.2 Anglais - Dump

2.1 Français - Contexte

2.2 Français - Dump

3.1 Chinois - Contexte

3.2 Chinois - Dump